1. 통계학이란?
1.1 데이터를 분석하다
- 데이터 분석의 목적
- 데이터를 요약하는 것
- 대상을 설명하는 것
- 새로 얻을 데이터를 예측하는 것
인과관계 : 2가지 중 하나(원인)을 변화시키면, 다른 하나(결과)도 바꿀 수 있는 관계. 인과관계를 알면 곧 원리(메커니즘)에 관한 지식을 얻는 것이기에 깊은 이해라고 할 수 있다.
상관관계 : 한쪽이 크면 다른 한쪽도 큰(또는 한쪽이 크면 다른 한쪽은 작은) 관계를 말한다. 한쪽을 ’변화시켰다’하더라도 다른 한쪽이 ’변한다’고 단정할 수 없다는 점에서 인과관계와 다르다. 원리에 관련된 몇 가지 가능성을 구별할 수 없으므로, 얕은 이해라 할 수 있다.
선형관계에는 사람이 다루기 쉽고, 해석하기도 쉽다는 특징. 한편, 해석이 어려운 복잡한 관계를 추출하고 예측하는 기계학습이란 방법도 있다.(12장)
1.2 통계학의 역할
- 통계학은 데이터 퍼짐 정도가 클수록 힘을 발휘한다.
- 데이터 분석에서 통계학의 중요한 역할은, 퍼짐(산포, dispersion) 이 있는 데이터에 대해 설명이나 예측을 하는 것.
- 통계학은 이러한 데이터 퍼짐을 ’불확실성’이라 평가하고, 통계학의 목적인 ’대상의 설명과 예측’을 수행
- 통계학은 데이터 퍼짐이나 불확실성에 대처하는 방법을 제공. 그 근거가 되는 것이 데이터 퍼짐이나 불확실성을 확률로 나타내는 확률론이다.
1.3 통계학의 전체 모습
-
기술통계와 추론통계
기술통계(descriptive statistics) : 수집한 데이터를 정리하고 요약하는 방법. 확보한 데이터에만 집중하면서, 데이터 자체의 성질을 이해하는 것을 목표로 한다는 점에 주의.
추론통계(inferential statistics) : 수집한 데이터로부터 데이터의 발생원을 추정하는 방법
-
통계적 추론과 가설검정
추론통계는 크게 2가지가 있다.
통계적 추론(statistical inference) : 데이터에서 가정한 확률 모형의 성질을 추정하는 방법. 예를 들어, 모서리가 닳아버린 주사위라면 각 눈이 나올 확률이 1/6이 아닐지도 모른다. 이럴 때 통계적 추론을 이용하여, 얻은 데이터로부터 각 눈이 어떤 확률로 나오는 주사위인가를 추정할 수 있다.
가설검정(statistical test) : 세운 가설과 얻은 데이터가 얼마나 들어맞는지를 평가하여, 가설을 채택할 것인가를 판단하는 방법
2. 모집단과 표본
2.1 데이터 분석의 목적과 알고자 하는 대상
- 데이터 분석의 목적을 정하기.
- 알고자 하는 대상을 명확히 하기.
2.2 모집단
- 모집단 : 알고자 하는 대상 전체
‘지금 알고자 하는 대상은 무엇인지’, ’무엇을 모집단으로 설정할 것인지’의 문제에는 항상 주의를 기울여야 한다.
- 유한모집단
- 무한모집단
2.3 모집단의 성질을 알다
- 모집단은 데이터 분석에서 알고자 하는 대상 전체를 가리키기 때문에, 모집단의 성질을 알 수 있다면 대상을 설명하거나 이해할 수 있고, 미지의 데이터를 예측할 수도 있게 된다.
- 모집단의 성질이란, 다음과 같이 모집단에 포함된 요소를 특징 짓는 값이다.
- 한국인 남성의 평균 키는 172.5cm이다.
- 한국인 여성의 평균 키는 159.6cm이다.
- 신약을 복용한 사람의 최고 혈압 평균은 120mmHg이다.
- 이 주사위는 모든 눈이 균등하게 나온다.
- 이 주사위는 6의 눈이 1/4 확률로 나온다.
- 그렇다면 이러한 모집단의 성질을 알기 위해서는 어떻게 해야 할까?
-
전수조사 : 모집단에 포함된 모든 요소를 조사
모집단에 포함된 요소의 개수가 한정된, 유한모집단일 때 선택할 수 있는 조사 방법.
전수조사의 경우 ‘분석할 데이터 = 모집단’. 그러므로 획득한 데이터의 특징을 파악하고 기술하기만 해도, 모집단의 성질을 설명하고 이해할 수 있다.
전수조사의 어려움 : 비용이나 시간 면에서 부담이 막대하여 실현 불가능할 때가 대부분.
-
표본조사 : 모집단의 일부를 분석하여 모집단 전체의 성질을 추정하는 추론통계(inferentail statistics) 라는 분야가 있으며, 이것이야말로 통계학의 참모습이라 할 수 있다.
표본(sample) : 추론통계에서 조사하는 모집단의 일부
표본추출(sampling) : 모집단에서 표본을 뽑는 것
표본조사 : 표본을 이용해 모집단의 성질을 조사하는 것
표본을 통해 모집단의 성질을 알 수 있는 잘 알려진 방법으로, 선거 출구조사를 들 수 있다. 일부의 표만으로도 당선확실 여부를 알 수 있다.
추론통계는 ’추론’이라는 말에서 알 수 있듯이 모집단의 성질을 100% 알아맞힐 수는 없으며, 어느 정도 불확실성을 염두에 두고 평가하게 된다.
대상을 설명(이해)하고 예측하기 위해서는 모집단의 성질을 알아야 한다.
일반적으로 모집단을 대상으로 한 전수조사는 어렵다.
표본을 조사하면 모집단의 성질을 추정할 수 있다.
표본크기 : 표본에 포함된 요소의 개수를 표본크기(sample size)라 부르며, 보통 알파벳 \(n\)으로 나타낸다. 예를 들어 표본으로 30개를 추출했다면, \(n\)=30이라 표기한다.
통계학에서 샘플 수라고 하면 표본의 개수를 뜻한다. 예를 들어 20명으로 이루어진 표본A와 이와 별개로 30명으로 이루어진 표본B가 있는 경우, 표본은 A, B 2개이므로 샘플 수는 2가 된다. 이처럼 표본크기와 표본의 개수는 혼동하기 쉬우므로 주의.
표본크기는 모집단의 성질을 추정할 때의 확실성이나 가설검정의 결과에도 영향을 끼치기 때문에, 통계분석에 있어 중요한 요소 중 하나.